Die im PolMine-Projekt aufbereiteten Korpora werden aus Ausgangsformaten (pdf, plain text, html) in standardisierte XML-Formate übersetzt. Die Standardisierung erfolgt entspricht Vorgaben der Text Encoding Initiative (TEI).
Das TEI-XML des GermaParl-Korpus kann als Beispiel dienen. Es ist über ein GitHub-Repositorium offen zugänglich. Es ist, sinnvoll, sich dieses Ausgangsformat anzusehen!
Das XML-TEI ist geeignet für die dauerhafte Datenhaltung und zur Sicherung von Interoperabilität, nicht jedoch für eine effiziente Analyse. Als “indexing and query engine” nutzt das PolMine Projekt (das polmineR-Paket) die Corpus Workbench (CWB)
CWB-indizierte Korpora können insbesondere auch linguistische Annotationen speichern und für die Analyse verfügbar machen. Diese werden über “positionale Attribute” (p-attributes) verfügbar.
Metadaten sind in der Terminologie der CWB als strukturelle Attribute (s-attributes) verfügbar. Wichtig: S-Attribute sind nicht auf die Textebene beschränkt, sondern können auch Passagen von Text (z.B. Annotationen, Named Entities, in Parlamentsprotokollen: Zwischenrufe) unterhalb der Textebene auszeichnen.